그래픽스 코어 넥스트

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 명령어 집합
3. 마이크로아키텍처
4. GCN 세대
참조

1. 개요

그래픽스 코어 넥스트(GCN)는 AMD가 개발한 GPU 명령어 집합 및 마이크로아키텍처이다. GCN은 GPU에 특화되어 개발되었으며, x86-64 명령어 집합과 유사하게 AMD가 소유하고 있다. 1세대부터 5세대까지의 GCN 아키텍처가 있으며, 각 세대별로 명령어 집합 및 기능이 개선되었다. GCN은 비동기 컴퓨트 엔진, 지오메트리 프로세서, 컴퓨트 유닛, 오디오 및 비디오 가속 블록, 통합 가상 메모리, 이기종 시스템 아키텍처(HSA) 지원, 하드웨어 스케줄러, 원시 폐기 가속기 등 다양한 기능을 포함한다. GCN은 AMD의 다양한 GPU 제품군과 APU에 사용되었으며, 특히 Radeon RX Vega 시리즈에서 5세대 GCN 아키텍처가 사용되었다.

2. 명령어 집합

x86-64 명령어 집합과 마찬가지로 GCN 명령어 집합은 AMD가 소유하고 있다. GCN 명령어 집합은 GPU에 특화되어 개발되었으며, 나눗셈을 위한 마이크로 연산은 존재하지 않는다.^[4]

각 세대별 GCN 명령어 집합에 대한 문서는 AMD 개발자 웹사이트에서 제공된다:

[https://developer.amd.com/wordpress/media/2012/12/AMD_Southern_Islands_Instruction_Set_Architecture.pdf Graphics Core Next 1 명령어 집합]
[https://developer.amd.com/wordpress/media/2013/07/AMD_Sea_Islands_Instruction_Set_Architecture.pdf Graphics Core Next 2 명령어 집합]
[https://developer.amd.com/wordpress/media/2013/12/AMD_GCN3_Instruction_Set_Architecture_rev1.1.pdf Graphics Core Next 3 및 4 명령어 집합]^[4]
[https://developer.amd.com/wp-content/resources/Vega_Shader_ISA_28July2017.pdf Graphics Core Next 5 명령어 집합]
[https://developer.amd.com/wp-content/resources/Vega_7nm_Shader_ISA.pdf "Vega" 7nm 명령어 집합 아키텍처] (Graphics Core Next 5.1이라고도 함)

GCN 명령어 집합을 위한 LLVM 컴파일러 백엔드가 제공되며,^[5] 이는 Mesa 3D에서 사용된다.

GNU 컴파일러 모음 9는 2019년부터 GCN 3 및 GCN 5를 지원하며,^[6] 이는 단일 스레드 독립형 프로그램용이며, GCC 10은 OpenMP 및 OpenACC를 통한 오프로딩도 지원한다.^[7]

MIAOW는 AMD Southern Islands GPGPU 마이크로아키텍처의 오픈 소스 RTL 구현이다.

2015년 11월, AMD는 CUDA 기반 애플리케이션을 공통 C++ 프로그래밍 모델로 이식하는 것을 목표로 하는 Boltzmann Initiative를 발표했다.^[8] 슈퍼컴퓨팅 15 행사에서 AMD는 클러스터급 고성능 컴퓨팅을 위한 이기종 컴퓨팅 컴파일러(HCC), 헤드리스 리눅스 장치 드라이버 및 HSA 런타임 인프라, 그리고 CUDA 애플리케이션을 앞서 언급한 공통 C++ 모델로 이식하기 위한 이기종 컴퓨팅 인터페이스 포터빌리티(HIP) 도구를 선보였다.

3. 마이크로아키텍처

GCN 명령 처리: 각 비동기 컴퓨트 엔진(ACE)은 들어오는 명령을 구문 분석하여 컴퓨트 유닛(CU)에 작업을 보낼 수 있다. 각 ACE는 최대 8개의 독립적인 대기열을 관리할 수 있다. ACE는 그래픽 명령 프로세서 및 두 개의 DMA 엔진과 병렬로 작동할 수 있다. 그래픽 명령 프로세서는 그래픽 대기열을 처리하고, ACE는 컴퓨트 대기열을 처리하며, DMA 엔진은 복사 대기열을 처리한다. 각 대기열은 다른 작업이 완료될 때까지 기다리지 않고 작업 항목을 보낼 수 있으므로 독립적인 명령 스트림을 GPU의 셰이더에서 인터리빙할 수 있다.

GCN은 명령어 처리를 위한 여러 유닛을 포함하고 있다. 각 비동기 컴퓨트 엔진(ACE)은 입력 명령어를 분석하여 컴퓨트 유닛(CU)에 디스패치한다. 각 ACE는 최대 8개의 독립적인 큐를 관리할 수 있다. ACE는 그래픽스 명령어 프로세서 및 2개의 DMA 엔진과 병렬로 연산할 수 있다. 그래픽스 명령어 프로세서는 그래픽스 큐를, ACE는 컴퓨트 큐를, 그리고 DMA 엔진은 복사 큐를 처리한다. 각각의 큐는 다른 작업이 완료되기를 기다리지 않고, 처리 대상을 디스패치하여 GPU의 셰이더에서 독립적인 명령어 스트림의 인터리빙을 가능하게 한다.^[9]

그래픽 명령 프로세서(Graphics Command Processor, GCP)는 GCN 마이크로아키텍처의 기능적 유닛이다.^[10] 다른 작업들 중에서도 비동기 셰이더 처리를 담당한다.^[10]

비동기 컴퓨트 엔진(Asynchronous Compute Engine, ACE)은 컴퓨팅 기능을 수행하는 별개의 기능 블록이며, 그래픽 명령 프로세서와 유사한 목적을 갖는다.

GCN의 세 번째 반복 이후 하드웨어는 두 개의 스케줄러를 포함한다. 하나는 셰이더 실행 중 "웨이브프론트"를 스케줄링하기 위한 CU 스케줄러이고, 다른 하나는 드로우 및 컴퓨트 큐의 실행을 스케줄링하기 위한 것이다. 후자는 고정 기능 파이프라인 속도나 대역폭에 의해 제한되는 그래픽 명령으로 인해 컴퓨트 유닛(CU)이 활용되지 않을 때 컴퓨트 작업을 실행하여 성능을 향상시키는데, 이것이 비동기 컴퓨팅이다.

주어진 셰이더에 대해 GPU 드라이버는 지연 시간을 최소화하기 위해 CPU에서 명령을 스케줄링할 수도 있다.

지오메트리 프로세서는 지오메트리 어셈블러, 테셀레이터 및 버텍스 어셈블러를 포함한다.^[11]

테셀레이터는 Direct3D 11 및 OpenGL 4.5에서 정의된 대로 하드웨어에서 테셀레이션을 수행할 수 있으며, AMD의 최신 반도체 지적 재산 코어인 ATI TruForm 및 TeraScale의 하드웨어 테셀레이션을 계승했다.^[11]

하나의 컴퓨트 유닛(CU)은 4개의 텍스처 매핑 유닛(TMU)과 64개의 셰이더 프로세서를 결합한다.^[12]^[13] 컴퓨트 유닛은 렌더 출력 유닛(ROP)과는 별개로 여기에 데이터를 공급한다.^[13]

각 컴퓨트 유닛은 다음으로 구성된다.

CU 스케줄러
분기 및 메시지 유닛
4개의 16레인 와이드 SIMD 벡터 유닛(SIMD-VU)
4개의 64 KiB 벡터 범용 레지스터(VGPR) 파일
1개의 스칼라 유닛(SU)
8 KiB 스칼라 GPR 파일^[14]
64 KiB 로컬 데이터 공유
4개의 텍스처 필터 유닛
16개의 텍스처 페치 로드/저장 유닛
16 KiB 레벨 1(L1) 캐시

4개의 컴퓨트 유닛은 16KiB L1 명령어 캐시와 32KiB L1 데이터 캐시를 공유하며, 이 두 캐시는 읽기 전용이다. SIMD-VU는 한 번에 16개의 요소(사이클당)에서 작동하는 반면, SU는 한 번에 하나씩(하나/사이클) 작동할 수 있다. 또한, SU는 분기와 같은 다른 일부 작업을 처리한다.^[29]

모든 SIMD-VU에는 레지스터를 저장하는 개인 메모리가 있다. 레지스터에는 두 가지 유형이 있다. 각 4바이트 숫자를 저장하는 스칼라 레지스터(S0, S1 등)와 각각 64개의 4바이트 숫자의 집합을 나타내는 벡터 레지스터(V0, V1 등)가 있다. 벡터 레지스터에서 모든 연산은 64개의 숫자에서 병렬로 수행된다. 이는 64개의 입력에 해당한다. 예를 들어, 한 번에 64개의 다른 픽셀에서 작업할 수 있다(각 픽셀에 대해 입력이 약간 다르므로 최종적으로 약간 다른 색상을 얻게 됨).

모든 SIMD-VU는 512개의 스칼라 레지스터와 256개의 벡터 레지스터를 수용할 수 있는 공간을 가지고 있다.

AMD는 각 GCN 컴퓨트 유닛(CU)이 64 KiB [로컬 데이터 공유] (LDS)를 가지고 있다고 주장했다.^[15]

각 컴퓨트 유닛(Compute Unit, CU)은 CU 스케줄러, 분기 및 메시지 유닛, 4개의 SIMD 벡터 유닛(각각 16 레인 폭), 4개의 64KiB VGPR 파일, 1개의 스칼라 유닛, 4KiB의 GPR 파일, 64KiB의 로컬 데이터 공유, 4개의 텍스처 필터 유닛, 16개의 텍스처 페치 로드-스토어 유닛 및 16KiB의 L1 캐시로 구성된다. 4개의 컴퓨트 유닛은 16KiB 단위의 명령 캐시와 32KiB의 스칼라 데이터 캐시를 공유한다. 이들은 L2 캐시에 의해 백업된다.

==== CU 스케줄러 ====

CU 스케줄러는 SIMD-VU에서 어떤 웨이브프론트를 실행할지를 선택하는 하드웨어 기능 블록이다. 이는 스케줄링 사이클마다 1개의 SIMD-VU를 처리한다. 이는 하드웨어 또는 소프트웨어에서 다른 스케줄러와 혼동될 일이 없다.

==== 웨이브프론트 (Wavefront) ====

셰이더 또는 커널 실행의 기본 단위이다. 스레드 그룹은 지연 시간을 숨기는 GPU의 가장 기본적인 스케줄링 단위이며, SIMD 방식으로 처리되는 데이터의 최소 크기이자, 가장 작은 실행 가능한 코드 단위이며, 동시에 모든 스레드에서 단일 명령을 처리하는 방식이다.

모든 GCN GPU에서 웨이브프론트는 64개의 스레드로 구성된다.

AMD는 각 SIMD-VU에 여러 웨이브프론트를 할당하는 방식을 채택했다. 하드웨어는 레지스터를 서로 다른 웨이브프론트에 분배하고, 한 웨이브프론트가 메모리에 있는 일부 결과를 기다리는 경우 CU 스케줄러는 SIMD-VU에 다른 웨이브프론트를 할당한다. 웨이브프론트는 SIMD-VU별로 할당되며 SIMD-VU는 웨이브프론트를 교환하지 않는다. SIMD-VU당 최대 10개의 웨이브프론트가 할당될 수 있다(따라서 CU당 40개).

AMD CodeXL은 SGPR 및 VGPR의 수와 웨이브프론트의 수 간의 관계를 보여주는 표를 표시하지만, 기본적으로 SGPRS의 경우 웨이브프론트 수당 104~512개, VGPRS의 경우 웨이브프론트 수당 256개이다.

==== SIMD 벡터 유닛 (SIMD Vector Unit, SIMD-VU) ====

각 SIMD 벡터 유닛은 다음을 갖는다.

16 레인의 정수 및 부동 소수점 벡터 ALU
64 KiB 벡터 범용 레지스터 (VGPR) 파일
10개의 48비트 프로그램 카운터
10개의 웨이브프론트용 명령어 버퍼 (각 웨이브프론트는 64개의 스레드 그룹 또는 하나의 논리적 VGPR 크기)
64-스레드 웨이브프론트는 4주기 동안 16-레인 SIMD 유닛으로 발행된다.

각 SIMD-VU는 10개의 웨이브프론트 명령 버퍼를 가지고 있으며 하나의 웨이브프론트를 실행하는 데 4주기가 걸린다.

GCN의 많은 구현에는 일반적으로 통합 비디오 디코더, 비디오 코딩 엔진, AMD 트루오디오를 포함한 AMD의 다른 ASIC 블록이 함께 제공된다.

AnandTech는 2011년 미리 보기에서 Graphics Core Next에서 지원하는 통합 가상 메모리에 대해 작성했다.^[17]

GCN은 "통합 가상 메모리"를 지원하여, 데이터 대신 포인터만 복사되어 "전달"되는 제로 카피를 가능하게 한다. 이것은 중요한 HSA 기능이다.^[83]^[84]

GCN은 HSA에서 사용될 특수 목적 기능 블록을 포함한다.^[19] 이러한 기능 블록에 대한 지원은 리눅스 커널 3.19부터 amdkfd를 통해 사용할 수 있다.^[19]

GCN에는 HSA가 사용하는 특수한 기능 블록이 포함되어 있다. 이러한 기능 블록은 리눅스 커널 3.19 이후에 를 통해 지원된다.

메모리 대역폭 사용량을 줄이기 위한 기술이다.

하드웨어 스케줄러(HWS)는 컴퓨트 큐 할당을 드라이버에서 하드웨어로 오프로드하여 스케줄링을 수행한다.^[88] 최소 하나의 ACE에 하나 이상의 빈 큐가 있을 때까지 이러한 큐를 버퍼링하고, 모든 큐가 가득 차거나 안전하게 할당할 큐가 더 이상 없을 때까지 버퍼링된 큐를 ACE에 즉시 할당한다.^[89]

수행되는 스케줄링 작업에는 우선 순위가 지정된 큐가 포함되어 있어, 낮은 우선 순위 작업이 높은 우선 순위 작업을 위해 선점될 필요 없이 중요한 작업을 다른 작업보다 높은 우선 순위로 실행할 수 있다.^[88] 이를 통해 높은 우선 순위 작업이 GPU를 최대한 점유하는 동시에, 다른 작업이 높은 우선 순위 작업이 사용하지 않는 리소스를 사용할 수 있도록 하여 작업을 동시에 실행할 수 있다.^[88] 이러한 하드웨어 스케줄러는 디스패치 컨트롤러가 없는 비동기 컴퓨트 엔진이다.^[88]

하드웨어 스케줄러는 4세대 GCN 마이크로아키텍처에 처음 도입되었지만,^[88] 3세대 GCN 마이크로아키텍처에도 내부 테스트 목적으로 존재했다.^[90] 이후 드라이버 업데이트를 통해 3세대 GCN 부품에서도 하드웨어 스케줄러를 사용할 수 있게 되었다.^[88]

원시 폐기 가속기는 정점 셰이더에 들어가기 전에 퇴화 삼각형을, 프래그먼트 셰이더에 들어가기 전에 프래그먼트를 덮지 않는 삼각형을 폐기하는 장치이다.^[25]^[91] 이 장치는 퇴화된 삼각형이 정점 셰이더를 통과하거나, 어떤 프래그먼트도 덮지 않는 삼각형이 프래그먼트 셰이더를 통과하기 전에 이를 폐기한다.^[91] 원시 폐기 가속기는 4세대 GCN 마이크로아키텍처에서 추가되었다.^[25]^[91]

3. 1. 명령 처리

GCN은 명령어 처리를 위한 여러 유닛을 포함하고 있다. 각 비동기 컴퓨트 엔진(ACE)은 입력 명령어를 분석하여 컴퓨트 유닛(CU)에 디스패치한다. 각 ACE는 최대 8개의 독립적인 큐를 관리할 수 있다. ACE는 그래픽스 명령어 프로세서 및 2개의 DMA 엔진과 병렬로 연산할 수 있다. 그래픽스 명령어 프로세서는 그래픽스 큐를, ACE는 컴퓨트 큐를, 그리고 DMA 엔진은 복사 큐를 처리한다. 각각의 큐는 다른 작업이 완료되기를 기다리지 않고, 처리 대상을 디스패치하여 GPU의 셰이더에서 독립적인 명령어 스트림의 인터리빙을 가능하게 한다.

그래픽 명령 프로세서(Graphics Command Processor, GCP)는 GCN 마이크로아키텍처의 기능적 유닛이다.^[10] 다른 작업들 중에서도 비동기 셰이더 처리를 담당한다.^[10]

비동기 컴퓨트 엔진(Asynchronous Compute Engine, ACE)은 컴퓨팅 기능을 수행하는 별개의 기능 블록이며, 그래픽 명령 프로세서와 유사한 목적을 갖는다.

GCN의 세 번째 반복 이후 하드웨어는 두 개의 스케줄러를 포함한다. 하나는 셰이더 실행 중 "웨이브프론트"를 스케줄링하기 위한 CU 스케줄러이고, 다른 하나는 드로우 및 컴퓨트 큐의 실행을 스케줄링하기 위한 것이다. 후자는 고정 기능 파이프라인 속도나 대역폭에 의해 제한되는 그래픽 명령으로 인해 컴퓨트 유닛(CU)이 활용되지 않을 때 컴퓨트 작업을 실행하여 성능을 향상시키는데, 이것이 비동기 컴퓨팅이다.

주어진 셰이더에 대해 GPU 드라이버는 지연 시간을 최소화하기 위해 CPU에서 명령을 스케줄링할 수도 있다.

3. 1. 1. 그래픽 명령 프로세서 (Graphics Command Processor, GCP)

그래픽스 명령 프로세서(Graphics Command Processor, GCP)는 GCN 마이크로아키텍처의 기능적 유닛이다.^[10] 다른 작업들 중에서도 비동기 셰이더 처리를 담당한다.^[10]

그래픽스 명령 프로세서(Graphics Command Processor)는 GCN 마이크로 아키텍처의 기능 유닛이며, 여러 가지 작업 중 특히 비동기 셰이더의 역할을 담당한다. 짧은 비디오 "AMD Simplified: Asynchronous Shaders"에서는 "멀티스레딩", "선점", "비동기 셰이더"의 차이점을 시각적으로 보여준다.^[81]^[82]

3. 1. 2. 비동기 컴퓨트 엔진 (Asynchronous Compute Engine, ACE)

비동기 컴퓨트 엔진(Asynchronous Compute Engine, ACE)은 그래픽 명령 프로세서와 유사한 목적으로 컴퓨팅 기능을 수행하는 별개의 기능 블록이다.

3. 1. 3. 스케줄러

GCN의 세 번째 반복 이후 하드웨어는 두 개의 스케줄러를 포함한다. 하나는 셰이더 실행 중 "웨이브프론트"를 스케줄링하기 위한 것(CU 스케줄러 또는 컴퓨트 유닛 스케줄러)이고, 다른 하나는 드로우 및 컴퓨트 큐의 실행을 스케줄링하기 위한 것이다. 후자는 고정 기능 파이프라인 속도나 대역폭에 의해 제한되는 그래픽 명령으로 인해 컴퓨트 유닛(CU)이 활용되지 않을 때 컴퓨트 작업을 실행하여 성능을 향상시킨다. 이 기능은 비동기 컴퓨팅이라고 한다.

주어진 셰이더에 대해 GPU 드라이버는 지연 시간을 최소화하기 위해 CPU에서 명령을 스케줄링할 수도 있다.

3. 2. 지오메트리 프로세서 (Geometric processor)

지오메트리 프로세서는 지오메트리 어셈블러, 테셀레이터 및 버텍스 어셈블러를 포함한다.^[11]

테셀레이터는 Direct3D 11 및 OpenGL 4.5에서 정의된 대로 하드웨어에서 테셀레이션을 수행할 수 있으며, AMD의 최신 반도체 지적 재산 코어인 ATI TruForm 및 TeraScale의 하드웨어 테셀레이션을 계승했다.^[11]

3. 3. 컴퓨트 유닛 (Compute Unit, CU)

하나의 컴퓨트 유닛(CU)은 4개의 텍스처 매핑 유닛(TMU)과 64개의 셰이더 프로세서를 결합한다.^[12]^[13] 컴퓨트 유닛은 렌더 출력 유닛(ROP)과는 별개로 여기에 데이터를 공급한다.^[13]

각 컴퓨트 유닛은 다음으로 구성된다.

CU 스케줄러
분기 및 메시지 유닛
4개의 16레인 와이드 SIMD 벡터 유닛(SIMD-VU)
4개의 64 KiB 벡터 범용 레지스터(VGPR) 파일
1개의 스칼라 유닛(SU)
8 KiB 스칼라 GPR 파일^[14]
64 KiB 로컬 데이터 공유
4개의 텍스처 필터 유닛
16개의 텍스처 페치 로드/저장 유닛
16 KiB 레벨 1(L1) 캐시

4개의 컴퓨트 유닛은 16KiB L1 명령어 캐시와 32KiB L1 데이터 캐시를 공유하며, 이 두 캐시는 읽기 전용이다. SIMD-VU는 한 번에 16개의 요소(사이클당)에서 작동하는 반면, SU는 한 번에 하나씩(하나/사이클) 작동할 수 있다. 또한, SU는 분기와 같은 다른 일부 작업을 처리한다.^[29]

모든 SIMD-VU에는 레지스터를 저장하는 개인 메모리가 있다. 레지스터에는 두 가지 유형이 있다. 각 4바이트 숫자를 저장하는 스칼라 레지스터(S0, S1 등)와 각각 64개의 4바이트 숫자의 집합을 나타내는 벡터 레지스터(V0, V1 등)가 있다. 벡터 레지스터에서 모든 연산은 64개의 숫자에서 병렬로 수행된다. 이는 64개의 입력에 해당한다. 예를 들어, 한 번에 64개의 다른 픽셀에서 작업할 수 있다(각 픽셀에 대해 입력이 약간 다르므로 최종적으로 약간 다른 색상을 얻게 됨).

모든 SIMD-VU는 512개의 스칼라 레지스터와 256개의 벡터 레지스터를 수용할 수 있는 공간을 가지고 있다.

AMD는 각 GCN 컴퓨트 유닛(CU)이 64 KiB [로컬 데이터 공유] (LDS)를 가지고 있다고 주장했다.^[15]

각 컴퓨트 유닛(Compute Unit, CU)은 CU 스케줄러, 분기 및 메시지 유닛, 4개의 SIMD 벡터 유닛(각각 16 레인 폭), 4개의 64KiB VGPR 파일, 1개의 스칼라 유닛, 4KiB의 GPR 파일, 64KiB의 로컬 데이터 공유, 4개의 텍스처 필터 유닛, 16개의 텍스처 페치 로드-스토어 유닛 및 16KiB의 L1 캐시로 구성된다. 4개의 컴퓨트 유닛은 16KiB 단위의 명령 캐시와 32KiB의 스칼라 데이터 캐시를 공유한다. 이들은 L2 캐시에 의해 백업된다.

==== CU 스케줄러 ====

CU 스케줄러는 SIMD-VU에서 어떤 웨이브프론트를 실행할지를 선택하는 하드웨어 기능 블록이다. 이는 스케줄링 사이클마다 1개의 SIMD-VU를 처리한다. 이는 하드웨어 또는 소프트웨어에서 다른 스케줄러와 혼동될 일이 없다.

==== 웨이브프론트 (Wavefront) ====

셰이더 또는 커널 실행의 기본 단위이다. 스레드 그룹은 지연 시간을 숨기는 GPU의 가장 기본적인 스케줄링 단위이며, SIMD 방식으로 처리되는 데이터의 최소 크기이자, 가장 작은 실행 가능한 코드 단위이며, 동시에 모든 스레드에서 단일 명령을 처리하는 방식이다.

모든 GCN GPU에서 웨이브프론트는 64개의 스레드로 구성된다.

AMD는 각 SIMD-VU에 여러 웨이브프론트를 할당하는 방식을 채택했다. 하드웨어는 레지스터를 서로 다른 웨이브프론트에 분배하고, 한 웨이브프론트가 메모리에 있는 일부 결과를 기다리는 경우 CU 스케줄러는 SIMD-VU에 다른 웨이브프론트를 할당한다. 웨이브프론트는 SIMD-VU별로 할당되며 SIMD-VU는 웨이브프론트를 교환하지 않는다. SIMD-VU당 최대 10개의 웨이브프론트가 할당될 수 있다(따라서 CU당 40개).

==== SIMD 벡터 유닛 (SIMD Vector Unit, SIMD-VU) ====

각 SIMD 벡터 유닛은 다음을 갖는다.

16 레인의 정수 및 부동 소수점 벡터 ALU
64 KiB 벡터 범용 레지스터 (VGPR) 파일
10개의 48비트 프로그램 카운터
10개의 웨이브프론트용 명령어 버퍼 (각 웨이브프론트는 64개의 스레드 그룹 또는 하나의 논리적 VGPR 크기)
64-스레드 웨이브프론트는 4주기 동안 16-레인 SIMD 유닛으로 발행된다.

각 SIMD-VU는 10개의 웨이브프론트 명령 버퍼를 가지고 있으며 하나의 웨이브프론트를 실행하는 데 4주기가 걸린다.

3. 3. 1. CU 스케줄러

CU 스케줄러는 SIMD-VU가 어떤 웨이브프론트를 실행할지 선택하는 하드웨어 기능 블록이다. 사이클당 하나의 SIMD-VU를 선택하여 스케줄링한다. 이는 다른 하드웨어 또는 소프트웨어 스케줄러와 혼동해서는 안 된다.

CU 스케줄러는 SIMD-VU에서 어떤 웨이브프론트를 실행할지를 선택하는 하드웨어 기능 블록이다. 이는 스케줄링 사이클마다 1개의 SIMD-VU를 처리한다. 이는 하드웨어 또는 소프트웨어에서 다른 스케줄러와 혼동될 일이 없다.

"셰이더"는 그래픽스 처리를 수행하는 작은 프로그램이며, "커널"은 GPGPU 처리를 수행하는 작은 프로그램이다. 전자는 통상 GLSL/HLSL로 작성되지만, 후자는 OpenCL C 언어 또는 GLSL/HLSL (컴퓨트 셰이더)로 작성할 수 있다. 이 프로세스들은 레지스터를 그다지 필요로 하지 않으며, 시스템 또는 그래픽스 메모리로부터의 데이터 읽기를 필요로 한다. 이 연산은 상당한 지연을 발생시킨다. AMD와 NVIDIA는 여러 스레드를 그룹화하는 방식으로 이 불가피한 지연을 숨기는 유사한 접근 방식을 선택했다. AMD는 이 그룹을 '''웨이브프론트''', NVIDIA는 '''워프'''라고 부른다. 스레드 그룹은 지연을 숨기는 메커니즘을 구현하는 GPU 스케줄링의 가장 기본적인 유닛이며, SIMD 스타일로 처리되는 데이터의 최소 크기, 코드의 최소 실행 가능 유닛, 동시에 모든 스레드를 단일 명령어로 처리하는 수단이다.

모든 GCN-GPU에서 웨이브프론트는 64개의 스레드로 구성되며, 모든 NVIDIA GPU에서 워프는 32개의 스레드로 구성된다.

AMD의 해결책은 여러 웨이브프론트를 각 SIMD-VU에 할당하는 것이다. 하드웨어는 레지스터를 서로 다른 웨이브프론트에 분배하고, 메모리에 있는 하나의 웨이브프론트가 어떤 결과를 대기하고 있을 때, CU 스케줄러는 SIMD-VU에서 다른 웨이브프론트를 실행시킨다. 웨이브프론트는 SIMD-VU마다 할당되며, SIMD-VU는 웨이브프론트를 교체하지 않는다. 최대 10개의 웨이브프론트가 1개의 SIMD-VU에 할당된다. (따라서 CU당 40개.)

스트리밍 SIMD 확장 명령어와 관련하여, 이 가장 기본적인 병렬성의 개념은 종종 "벡터 폭"이라고 불리는 점에 유의해야 한다. 벡터 폭은 그 안의 총 비트 수로 특징지어진다.

3. 3. 2. 웨이브프론트 (Wavefront)

셰이더 또는 커널 실행의 기본 단위이다. 스레드 그룹은 지연 시간을 숨기는 GPU의 가장 기본적인 스케줄링 단위이며, SIMD 방식으로 처리되는 데이터의 최소 크기이자, 가장 작은 실행 가능한 코드 단위이며, 동시에 모든 스레드에서 단일 명령을 처리하는 방식이다.

모든 GCN GPU에서 웨이브프론트는 64개의 스레드로 구성된다.

AMD는 각 SIMD-VU에 여러 웨이브프론트를 할당하는 방식을 채택했다. 하드웨어는 레지스터를 서로 다른 웨이브프론트에 분배하고, 한 웨이브프론트가 메모리에 있는 일부 결과를 기다리는 경우 CU 스케줄러는 SIMD-VU에 다른 웨이브프론트를 할당한다. 웨이브프론트는 SIMD-VU별로 할당되며 SIMD-VU는 웨이브프론트를 교환하지 않는다. SIMD-VU당 최대 10개의 웨이브프론트가 할당될 수 있다(따라서 CU당 40개).

AMD CodeXL은 SGPR 및 VGPR의 수와 웨이브프론트의 수 간의 관계를 보여주는 표를 표시하지만, 기본적으로 SGPRS의 경우 웨이브프론트 수당 104~512개, VGPRS의 경우 웨이브프론트 수당 256개이다.

3. 3. 3. SIMD 벡터 유닛 (SIMD Vector Unit, SIMD-VU)

각 SIMD 벡터 유닛은 다음을 갖는다.

16 레인의 정수 및 부동 소수점 벡터 ALU
64 KiB 벡터 범용 레지스터 (VGPR) 파일
10개의 48비트 프로그램 카운터
10개의 웨이브프론트용 명령어 버퍼 (각 웨이브프론트는 64개의 스레드 그룹 또는 하나의 논리적 VGPR 크기)
64-스레드 웨이브프론트는 4주기 동안 16-레인 SIMD 유닛으로 발행된다.

각 SIMD-VU는 10개의 웨이브프론트 명령 버퍼를 가지고 있으며 하나의 웨이브프론트를 실행하는 데 4주기가 걸린다.

3. 4. 오디오 및 비디오 가속 블록

GCN의 많은 구현에는 일반적으로 통합 비디오 디코더, 비디오 코딩 엔진, AMD 트루오디오를 포함한 AMD의 다른 ASIC 블록이 함께 제공된다. 이러한 ASIC 블록은 GCN 마이크로아키텍처 또는 GCN 명령 집합과 연동되지 않고, GCN을 구현하는 대부분의 칩에 있는 단순한 ASIC 블록이다.

3. 5. 통합 가상 메모리 (Unified virtual memory)

AnandTech는 2011년 미리 보기에서 Graphics Core Next에서 지원하는 통합 가상 메모리에 대해 작성했다.^[17]

GCN은 "통합 가상 메모리"를 지원하여, 데이터 대신 포인터만 복사되어 "전달"되는 제로 카피를 가능하게 한다. 이것은 중요한 HSA 기능이다.^[83]^[84]

3. 6. 이기종 시스템 아키텍처 (Heterogeneous System Architecture, HSA)

GCN은 HSA에서 사용될 특수 목적 기능 블록을 포함한다.^[19] 이러한 기능 블록에 대한 지원은 리눅스 커널 3.19부터 amdkfd를 통해 사용할 수 있다.^[19]

하드웨어에 구현된 특정 HSA 기능 중 일부는 운영 체제의 커널 (하위 시스템) 및/또는 특정 장치 드라이버의 지원이 필요하다. 예를 들어, 2014년 7월 AMD는 자사의 Graphics Core Next 기반 Radeon 그래픽 카드를 지원하기 위해 리눅스 커널 메인라인 3.17에 병합될 83개의 패치 세트를 게시했다.^[20] 소위 HSA 커널 드라이버는 디렉토리에 있으며, DRM 그래픽 장치 드라이버는 에^[20] 있으며 기존 Radeon 카드용 DRM 드라이버를 보강한다.^[21] 이 최초의 구현은 단일 "Kaveri" APU에 초점을 맞추고 있으며 기존 Radeon 커널 그래픽 드라이버(kgd)와 함께 작동한다.

3. 7. 무손실 델타 색상 압축 (Lossless Delta Color Compression)

메모리 대역폭 사용량을 줄이기 위한 기술이다.

3. 8. 하드웨어 스케줄러

하드웨어 스케줄러(HWS)는 컴퓨트 큐 할당을 드라이버에서 하드웨어로 오프로드하여 스케줄링을 수행한다.^[88] 최소 하나의 ACE에 하나 이상의 빈 큐가 있을 때까지 이러한 큐를 버퍼링하고, 모든 큐가 가득 차거나 안전하게 할당할 큐가 더 이상 없을 때까지 버퍼링된 큐를 ACE에 즉시 할당한다.^[89]

수행되는 스케줄링 작업에는 우선 순위가 지정된 큐가 포함되어 있어, 낮은 우선 순위 작업이 높은 우선 순위 작업을 위해 선점될 필요 없이 중요한 작업을 다른 작업보다 높은 우선 순위로 실행할 수 있다.^[88] 이를 통해 높은 우선 순위 작업이 GPU를 최대한 점유하는 동시에, 다른 작업이 높은 우선 순위 작업이 사용하지 않는 리소스를 사용할 수 있도록 하여 작업을 동시에 실행할 수 있다.^[88] 이러한 하드웨어 스케줄러는 디스패치 컨트롤러가 없는 비동기 컴퓨트 엔진이다.^[88]

하드웨어 스케줄러는 4세대 GCN 마이크로아키텍처에 처음 도입되었지만,^[88] 3세대 GCN 마이크로아키텍처에도 내부 테스트 목적으로 존재했다.^[90] 이후 드라이버 업데이트를 통해 3세대 GCN 부품에서도 하드웨어 스케줄러를 사용할 수 있게 되었다.^[88]

3. 9. 원시 폐기 가속기 (Primitive Discard Accelerator)

원시 폐기 가속기는 정점 셰이더에 들어가기 전에 퇴화 삼각형을, 프래그먼트 셰이더에 들어가기 전에 프래그먼트를 덮지 않는 삼각형을 폐기하는 장치이다.^[25]^[91] 이 장치는 퇴화된 삼각형이 정점 셰이더를 통과하거나, 어떤 프래그먼트도 덮지 않는 삼각형이 프래그먼트 셰이더를 통과하기 전에 이를 폐기한다.^[91] 원시 폐기 가속기는 4세대 GCN 마이크로아키텍처에서 추가되었다.^[25]^[91]

4. GCN 세대

4. 1. 1세대 GCN (GCN 1)

1세대 GCN (Graphics Core Next 1) 마이크로아키텍처는 테라스케일 3의 후속으로, 서던 아일랜드(Southern Islands) 제품군 (라데온 HD 7000 시리즈)에 사용되었다.^[17]^[83] 2012년 1월에 출시되었다.^[17]

Radeon HD 7950 GHz Edition 그래픽 카드에 사용된 Tahiti GPU의 다이 샷

CPU와 GPU를 위한 통합 주소 공간을 갖춘 64비트 어드레싱(x86-64 주소 공간)을 지원하며,^[17]^[83] PCIe 3.0을 지원한다.^[26]^[92] GPU가 다양한 이벤트(예: 페이지 오류)에 대해 CPU에 인터럽트 요청을 보낼 수 있다.^[17]^[83]

DirectX 및 OpenGL 확장을 통해 가상 메모리 지원을 가능하게 하는 부분 상주 텍스처(Partially Resident Textures)를 지원한다.^[27]^[93] 또한, 특정 TDP 범위 내에서 동적으로 성능을 조정하는 AMD 파워튠과 Mantle (API)을 지원한다.^[28]^[94]

계산 처리 및 디스패치를 제어하는 비동기 컴퓨팅 엔진(Asynchronous Compute Engine; ACE)이 있다.^[29]^[30]^[95]^[96] ZeroCore Power는 장기간 유휴 상태일 때 GPU의 기능 유닛을 끄는 절전 기술로, AMD 파워튠을 보완한다.^[31]^[97]

개별 GPU(서던 아일랜드 제품군)에는 하이난, 올란드, 케이프 베르데, 피트케언, 타히티가 있다.

4. 2. 2세대 GCN (GCN 2)

GCN 2세대는 2013년 9월에 라데온 HD 7790과 함께 도입되었으며,^[98] 시 아일랜드(Sea Islands) 제품군에 속한다.^[33]^[99] 라데온 HD 8770, R7 260/260X, R9 290/290X, R9 295X2, R7 360, 및 R9 390/390X 등과 같은 데스크톱 GPU와 Steamroller 기반 데스크톱 "Kaveri" APU, 모바일 "Kaveri" APU, Puma 기반 "Beema" 및 "Mullins" APU 등에도 사용되었다.^[32] GCN 2세대는 FreeSync 지원, AMD 트루오디오 및 개선된 AMD 파워튠 기술을 포함한다.^[98]

GCN 2세대는 "셰이더 엔진"(Shader Engine, SE)이라는 새로운 엔티티를 도입했다.^[32] 셰이더 엔진은 하나의 지오메트리 프로세서, 최대 44개의 CU(하와이 칩), 래스터라이저, ROP, 그리고 L1 캐시로 구성된다.^[32] 셰이더 엔진에 포함되지 않는 것은 그래픽 명령 프로세서, 8개의 ACE, L2 캐시 및 메모리 컨트롤러, 오디오 및 비디오 가속기, 디스플레이 컨트롤러, 2개의 DMA 컨트롤러 및 PCIe 인터페이스이다.^[32]

A10-7850K "Kaveri"에는 독립적인 스케줄링 및 작업 항목 디스패칭을 위한 8개의 CU(컴퓨트 유닛)와 8개의 비동기식 컴퓨트 엔진이 포함되어 있다.^[32]

개별 GPU(Sea Islands 제품군)로는 보네어(Bonaire)와 하와이(Hawaii)가 있으며, APU에는 테마쉬(Temash), 카비니(Kabini), 리버풀(Liverpool, 플레이스테이션 4 APU), 듀랑고(Durango, Xbox One 및 Xbox One S APU), 카베리(Kaveri), 고다바리(Godavari), 멀린스(Mullins), 비마(Beema), 카리조-L(Carrizo-L) 등이 있다.

4. 3. 3세대 GCN (GCN 3)

3세대 GCN^[34]^[100]은 "통가" GPU를 탑재한 Radeon R9 285 및 R9 M295X와 함께 2014년에 처음 소개되었다. 이 아키텍처는 테셀레이션 성능 개선, 메모리 대역폭 사용량을 줄이기 위한 무손실 델타 색상 압축, 업데이트되고 더 효율적인 명령어 집합, 비디오용 새로운 고품질 스케일러, HEVC 인코딩(VCE 3.0) 및 HEVC 디코딩(UVD 6.0), 새로운 멀티미디어 엔진(비디오 인코더/디코더)을 특징으로 한다. 델타 색상 압축은 Mesa에서 지원된다.^[35]^[101] 그러나, 이전 세대에 비해 배정밀도 성능이 저하되었다.^[36]

개별 GPU로는 "통가"(볼케이닉 아일랜드(Volcanic Islands) 제품군)가 있으며, UVD 5.0 (통합 비디오 디코더)을 포함한다. "피지"(해적섬 제품군)는 UVD 6.0 및 고대역폭 메모리(HBM 1)를 포함한다.

APU에는 UVD 6.0을 포함하는 "카리조", "브리스톨 릿지"^[37]^[102], "스토니 릿지"^[37]^[102]가 통합되었다.

Radeon R9 Nano 그래픽 카드에 사용된 Fiji GPU의 다이 샷

4. 4. 4세대 GCN (GCN 4, Polaris)

Radeon RX 460 그래픽 카드에 사용된 Polaris 11 GPU의 다이 샷

Radeon RX 470 그래픽 카드에 사용된 Polaris 10 GPU의 다이 샷

아틱 아일랜드(Arctic Islands) 제품군의 GPU는 2016년 2분기에 AMD 라데온 400 시리즈와 함께 출시되었다.^[38] 3D 엔진(GCA(그래픽 및 컴퓨트 어레이) 또는 GFX)은 통가(Tonga) 칩에서 발견되는 것과 동일하지만,^[38] Polaris는 새로운 디스플레이 컨트롤러 엔진, UVD 버전 6.3 등을 특징으로 한다.^[38]

Polaris 30을 제외한 모든 Polaris 기반 칩은 삼성전자가 개발하고 글로벌파운드리즈에 라이선스된 14 nm FinFET 공정으로 생산된다.^[39] Polaris 30은 삼성과 글로벌파운드리즈가 개발한 12 nm LP FinFET 공정 노드로 제작되었다. 4세대 GCN 명령어 집합 아키텍처는 3세대와 호환된다. 3세대 GCN보다 더 높은 GPU 클럭 속도를 가능하게 하는 14 nm FinFET 공정에 대한 최적화이다.^[40] 아키텍처 개선 사항으로는 새로운 하드웨어 스케줄러, 새로운 기본 폐기 가속기, 새로운 디스플레이 컨트롤러, 색상 채널당 10비트에서 초당 60프레임으로 4K 해상도에서 HEVC를 디코딩할 수 있는 업데이트된 UVD가 포함된다.^[40]

개별 GPU는 다음과 같다:^[41]

폴라리스 10(엘즈미어(Ellesmere))는 "Radeon RX 470" 및 "Radeon RX 480" 브랜드의 그래픽 카드에 탑재되었다.
폴라리스 11(배핀(Baffin))는 "Radeon RX 460" 브랜드의 그래픽 카드에 탑재되었다(또한 Radeon RX 560'''D''').
폴라리스 12(렉사 (Lexa))는 "Radeon RX 550" 및 "Radeon RX 540" 브랜드의 그래픽 카드에 탑재되었다.
폴라리스 20은 더 높은 클럭을 가진 리프레시된(14 nm LPP 삼성/GloFo FinFET) 폴라리스 10으로, "Radeon RX 570" 및 "Radeon RX 580" 브랜드의 그래픽 카드에 사용되었다.^[42]
폴라리스 21은 리프레시된(14 nm LPP 삼성/GloFo FinFET 공정) 폴라리스 11로, "Radeon RX 560" 브랜드의 그래픽 카드에 사용되었다.
폴라리스 22는 "Radeon RX Vega M GH" 및 "Radeon RX Vega M GL" 브랜드의 그래픽 카드에 탑재되었다.(카비레이크-G의 일부)
폴라리스 23은 더 높은 클럭을 가진 리프레시된(14 nm LPP 삼성/GloFo FinFET 공정) 폴라리스 12로, "Radeon Pro WX 3200" 및 "Radeon RX 540X" 브랜드의 그래픽 카드에 사용되었다(또한 Radeon RX 640).^[43]
폴라리스 30은 더 높은 클럭을 가진 리프레시된(12 nm LP GloFo FinFET 공정) 폴라리스 20으로, "Radeon RX 590" 브랜드의 그래픽 카드에 사용되었다.^[44]

전용 GPU 외에도, 폴라리스는 각각 "Neo" 및 "Scorpio"로 명명된 PlayStation 4 Pro 및 Xbox One X의 APU에 활용된다.

모든 GCN 4세대 GPU의 FP64 성능은 FP32 성능의 1/16이다.

4. 5. 5세대 GCN (GCN 5, Vega)

5세대 GCN (GCN 5, Vega)은 라데온 RX Vega 시리즈 제품군에 사용되었다.^[13]^[45]^[46] "차세대 컴퓨트 유닛" 설계를 도입하여 클럭당 명령어 수 증가, 더 높은 클럭 속도, HBM2 지원, 더 큰 메모리 주소 공간을 제공한다.^[47] 개별 그래픽 칩셋에는 "HBCC(High Bandwidth Cache Controller)"가 포함되어 있지만, APU 통합 시에는 그렇지 않다.

Radeon RX Vega 64 그래픽 카드에 사용된 Vega 10 GPU의 다이샷

스트림 프로세서는 8비트, 16비트 및 32비트 숫자에 대한 팩 매스 Rapid Pack Math 기술을 지원하도록 이전 세대에서 크게 수정되었다. 낮은 정밀도가 허용될 때 상당한 성능 이점이 있는데, 예를 들어 단일 단정밀도 숫자와 동일한 속도로 두 개의 반정밀도 숫자 처리가 가능하다.

엔비디아는 Maxwell과 함께 타일 기반 래스터화 및 비닝을 도입했으며,^[48] 이는 Maxwell의 효율성 증가의 큰 이유였다. Vega에는 "DSBR(Draw Stream Binning Rasterizer)"가 도입되어 에너지 효율성 최적화와 관련하여 엔비디아를 따라잡을 것으로 예상되었다.^[49]

새로운 셰이더 단계인 원시 셰이더에 대한 지원이 추가되었다.^[50]^[51] 원시 셰이더는 더 유연한 지오메트리 처리를 제공하며 렌더링 파이프라인에서 정점 및 지오메트리 셰이더를 대체한다. 그러나 2018년 12월 현재, 필요한 API 변경 사항이 완료되지 않아 원시 셰이더를 사용할 수 없다.^[52]

Vega 10 및 Vega 12는 삼성전자가 개발하고 글로벌파운드리에 라이선스된 14 nm FinFET 공정을 사용한다. Vega 20은 TSMC가 개발한 7 nm FinFET 공정을 사용한다.

개별 GPU로는 Vega 10 (14 nm 삼성/글로포 FinFET 공정) (코드명 그린란드)은 "Radeon RX Vega 64", "Radeon RX Vega 56", "Radeon Vega Frontier Edition", "Radeon Pro V340", Radeon Pro WX 9100, 및 Radeon Pro WX 8200 그래픽 카드에 탑재^[54]되었고, Vega 12 (14 nm 삼성/글로포 FinFET 공정)는 "Radeon Pro Vega 20" 및 "Radeon Pro Vega 16" 브랜드의 모바일 그래픽 카드에 탑재^[55]되었으며, Vega 20 (7 nm TSMC FinFET 공정)는 "Radeon Instinct MI50" 및 "Radeon Instinct MI60" 브랜드의 가속기 카드,^[56] "Radeon Pro Vega II", 및 "Radeon VII" 브랜드의 그래픽 카드에 탑재^[57]되었다.

APU에 통합된 경우, 레이븐 릿지^[58]는 VCE 및 UVD를 대체하고 완전한 고정 기능 VP9 디코딩을 허용하는 VCN 1과 함께 제공된다.

Vega 20을 제외한 모든 GCN 5세대 GPU의 배정밀도 부동 소수점(FP64) 성능은 FP32 성능의 1/16이다. Vega 20에서는 FP32의 1/2이다.^[114] 모든 GCN 5세대 GPU는 FP32의 2배 성능을 가진 반정밀도 부동 소수점(FP16) 계산을 지원한다.

참조

_[1] 웹사이트 GS-4106 The AMD GCN Architecture – A Crash Course, by Layla Mah https://www.slidesha[...] 2014-01-31
_[2] 간행물 AMD Launches World's Fastest Single-GPU Graphics Card – the AMD Radeon HD 7970 https://www.amd.com/[...] AMD 2015-01-20
_[3] 웹사이트 An Architectural Deep-Dive into AMD's TeraScale, GCN & RDNA GPU Architectures https://medium.com/h[...] 2021-12-12
_[4] 웹사이트 AMD community forums https://community.am[...] 2016-07-15
_[5] 웹사이트 LLVM back-end amdgpu http://llvm.org/docs[...]
_[6] 웹사이트 GCC 9 Release Series Changes, New Features, and Fixes https://gcc.gnu.org/[...] 2019-11-13
_[7] 웹사이트 AMD GCN Offloading Support https://gcc.gnu.org/[...] 2019-11-13
_[8] 웹사이트 AMD Boltzmann Initiative – Heterogeneous-compute Interface for Portability (HIP) https://www.amd.com/[...] 2019-12-08
_[9] 뉴스 The AMD Vega GPU Architecture Preview http://www.anandtech[...] 2017-01-05
_[10] 웹사이트 AMD Dives Deep On Asynchronous Shading http://www.anandtech[...]
_[11] 웹사이트 Conformant Products https://www.khronos.[...] 2017-10-26
_[12] 서적 Compute Cores Whitepaper https://www.amd.com/[...] AMD
_[13] 뉴스 AMD's Graphics Core Next Preview http://www.anandtech[...] 2011-12-21
_[14] 웹사이트 AMD's Graphics Core Next (GCN) Architecture https://www.techpowe[...] 2024-02-26
_[15] 웹사이트 Optimizing GPU occupancy and resource usage with large thread groups https://gpuopen.com/[...] 2024-01-01
_[16] 웹사이트 White Paper AMD UnifiedVideoDecoder (UVD) https://www.amd.com/[...] 2017-05-20
_[17] 웹사이트 Not Just A New Architecture, But New Features Too http://www.anandtech[...] AnandTech 2014-07-11
_[18] 웹사이트 Kaveri microarchitecture http://www.semiaccur[...] 2014-01-15
_[19] 웹사이트 Merge AMDKFD http://cgit.freedesk[...] freedesktop.org 2015-01-21
_[20] 웹사이트 /drivers/gpu/drm https://git.kernel.o[...] Kernel.org
_[21] 웹사이트 '[PATCH 00/83] AMD HSA kernel driver' http://lkml.iu.edu/h[...] LKML 2014-07-11
_[22] 뉴스 AMD Radeon RX 480 8GB Review http://www.tomshardw[...] 2016-08-11
_[23] 웹사이트 Dissecting the Polaris Architecture http://radeon.wpengi[...] 2016-08-12
_[24] 뉴스 The AMD Radeon RX 480 Review – The Polaris Promise http://www.pcper.com[...] 2016-08-12
_[25] 뉴스 The AMD Radeon RX 480 Preview: Polaris Makes Its Mainstream Mark http://www.anandtech[...] 2016-08-11
_[26] 웹사이트 AMD Radeon HD 7000 Series to be PCI-Express 3.0 Compliant http://www.techpower[...] TechPowerUp 2011-07-21
_[27] 웹사이트 AMD Details Next Gen. GPU Architecture http://pixelsmashers[...] 2011-08-03
_[28] 문서 AMD's Graphics Core Next (GCN) Architecture http://meseec.ce.rit[...] 2016-08-13
_[29] 웹사이트 AMD Graphics Core Next http://developer.amd[...] AMD 2014-07-15
_[30] 웹사이트 AMD's Graphics Core Next Preview: AMD's New GPU, Architected For Compute http://www.anandtech[...] AnandTech 2014-07-15
_[31] 웹사이트 Managing Idle Power: Introducing ZeroCore Power http://www.anandtech[...] 2015-04-29
_[32] 웹사이트 AMD's Kaveri A10-7850K tested http://www.anandtech[...] 2014-07-07
_[33] 웹사이트 AMD Radeon R9-290X http://www.slideshar[...] 2013-11-21
_[34] 웹사이트 Carrizo Overview http://images.anandt[...] 2018-07-20
_[35] 웹사이트 Add DCC Support http://lists.freedes[...] 2015-10-11
_[36] 뉴스 AMD Radeon R9 285 Review http://www.anandtech[...] Smith, Ryan 2017-03-13
_[37] 뉴스 AMD Announces 7th Generation APU http://www.anandtech[...] Cutress, Ian 2016-06-01
_[38] 웹사이트 RadeonFeature https://www.x.org/wi[...]
_[39] 웹사이트 Radeon Technologies Group – January 2016 – AMD Polaris Architecture http://www.guru3d.co[...]
_[40] 뉴스 The AMD Vega Architecture Teaser: Higher IPC, Tiling, & More, coming in H1'2017 http://www.anandtech[...] Smith, Ryan 2017-01-10
_[41] 웹사이트 AMD confirms Polaris 10 is Ellesmere and Polaris 11 is Baffin http://videocardz.co[...] 2016-04-08
_[42] 웹사이트 Fast vollständige Hardware-Daten zu AMDs Radeon RX 500 Serie geleakt https://www.3dcenter[...]
_[43] 웹사이트 AMD Polaris 23 https://www.techpowe[...] 2022-05-12
_[44] 웹사이트 The AMD Radeon RX 590 Review, feat. XFX & PowerColor: Polaris Returns (Again) https://www.anandtec[...] 2018-11-24
_[45] 뉴스 The curtain comes up on AMD's Vega architecture http://techreport.co[...] Kampman, Jeff 2017-01-10
_[46] 뉴스 AMD Vega GPU Architecture Preview: Redesigned Memory Architecture https://www.pcper.co[...] Shrout, Ryan 2017-01-10
_[47] 뉴스 AMD's Ryzen 7 2700U and Ryzen 5 2500U APUs revealed https://techreport.c[...] Kampman, Jeff 2017-10-26
_[48] 웹사이트 On NVIDIA's Tile-Based Rendering https://www.techpowe[...] 2017-03-01
_[49] 웹사이트 Vega Teaser: Draw Stream Binning Rasterizer http://www.anandtech[...]
_[50] 웹사이트 Radeon RX Vega Revealed: AMD promises 4K gaming performance for $499 – Trusted Reviews http://www.trustedre[...] 2017-03-20
_[51] 웹사이트 The curtain comes up on AMD's Vega architecture http://techreport.co[...] 2017-03-20
_[52] 웹사이트 Radeon RX Vega primitive shaders will need API support https://techreport.c[...] 2018-12-29
_[53] 웹사이트 ROCm-OpenCL-Runtime/libUtils.cpp at master · RadeonOpenCompute/ROCm-OpenCL-Runtime https://github.com/R[...] 2018-11-10
_[54] 뉴스 The AMD Radeon RX Vega 64 & RX Vega 56 Review: Vega Burning Bright https://www.anandtec[...] 2017-11-16
_[55] 뉴스 AMD's Vega Mobile Lives: Vega Pro 20 & 16 in Updated MacBook Pros In November https://www.anandtec[...] 2018-11-10
_[56] 뉴스 AMD Announces Radeon Instinct MI60 & MI50 Accelerators: Powered By 7nm Vega https://www.anandtec[...] 2018-11-10
_[57] 간행물 AMD Unveils World's First 7nm Gaming GPU – Delivering Exceptional Performance and Incredible Experiences for Gamers, Creators and Enthusiasts https://www.amd.com/[...] AMD 2019-01-12
_[58] 뉴스 Ryzen Mobile APUs are coming to a laptop near you https://techreport.c[...] Tech Report 2017-05-16
_[59] 간행물 AMD Unveils World's First 7nm Datacenter GPUs – Powering the Next Era of Artificial Intelligence, Cloud Computing and High Performance Computing (HPC) https://www.amd.com/[...] 2018-11-10
_[60] 웹사이트 RadeonFeature https://www.x.org/wi[...] 2022-11-21
_[61] 웹사이트 AMD Tahiti GPU Specs https://www.techpowe[...] 2022-11-20
_[62] 웹사이트 AMD Pitcairn GPU Specs https://www.techpowe[...] 2022-11-20
_[63] 웹사이트 AMD Cape Verde GPU Specs https://www.techpowe[...] 2022-11-20
_[64] 웹사이트 AMD Oland GPU Specs https://www.techpowe[...] 2022-11-20
_[65] 웹사이트 AMD Hainan GPU Specs https://www.techpowe[...] 2022-11-20
_[66] 웹사이트 AMD Bonaire GPU Specs https://www.techpowe[...] 2022-11-21
_[67] 웹사이트 AMD Hawaii GPU Specs https://www.techpowe[...] 2022-11-21
_[68] 웹사이트 AMD Topaz GPU Specs https://www.techpowe[...] 2022-11-21
_[69] 웹사이트 AMD Tonga GPU Specs https://www.techpowe[...] 2022-11-21
_[70] 웹사이트 AMD Fiji GPU Specs https://www.techpowe[...] 2022-11-21
_[71] 웹사이트 AMD Ellesmere GPU Specs https://www.techpowe[...] 2022-11-21
_[72] 웹사이트 AMD Baffin GPU Specs https://www.techpowe[...] 2022-11-21
_[73] 웹사이트 AMD Lexa GPU Specs https://www.techpowe[...] 2022-11-21
_[74] 웹사이트 AMD Vega 10 GPU Specs https://www.techpowe[...] 2022-11-21
_[75] 웹사이트 AMD Vega 12 GPU Specs https://www.techpowe[...] 2022-11-21
_[76] 웹사이트 AMD Vega 20 GPU Specs https://www.techpowe[...] 2022-11-21
_[77] 간행물 AMD Launches World’s Fastest Single-GPU Graphics Card – the AMD Radeon HD 7970 http://www.amd.com/e[...] AMD 2011-12-22
_[78] 웹사이트 Feature matrix of the free and open-source "Radeon" graphics device driver http://xorg.freedesk[...] 2014-07-09
_[79] 웹사이트 LLVM back-end amdgpu http://llvm.org/docs[...] 2015-09-07
_[80] 웹사이트 AMD Boltzmann Initiative – Heterogeneous-compute Interface for Portability (HIP) http://www.amd.com/e[...] 2015-11-16
_[81] 문서 DirectX 12 Async Shaders An Advantage For AMD And An Achilles Heel For Nvidia Explains Oxide Games Dev http://wccftech.com/[...]
_[82] Youtube AMD Simplified: Asynchronous Shaders - YouTube https://www.youtube.[...]
_[83] 웹사이트 Not Just A New Architecture, But New Features Too http://www.anandtech[...] AnandTech 2014-07-11
_[84] 웹사이트 Kaveri microarchitecture http://semiaccurate.[...] 2014-07-11
_[85] 웹사이트 Merge AMDKFD http://cgit.freedesk[...] freedesktop.org 2015-01-21
_[86] 웹사이트 /drivers/gpu/drm https://git.kernel.o[...] kernel.org 2014-07-11
_[87] 웹사이트 "[PATCH 00/83] AMD HSA kernel driver" http://lkml.iu.edu/h[...] Linux kernel mailing list 2014-07-11
_[88] 뉴스 AMD Radeon RX 480 8GB Review http://www.tomshardw[...] 2016-08-11
_[89] 웹사이트 Dissecting the Polaris Architecture http://radeon.wpengi[...] 2016-08-12
_[90] 뉴스 The AMD Radeon RX 480 Review - The Polaris Promise http://www.pcper.com[...] 2016-08-12
_[91] 뉴스 The AMD Radeon RX 480 Preview: Polaris Makes Its Mainstream Mark http://www.anandtech[...] 2016-08-11
_[92] 웹사이트 AMD Radeon HD 7000 Series to be PCI-Express 3.0 Compliant http://www.techpower[...] TechPowerUp 2011-07-21
_[93] 웹사이트 AMD Details Next Gen. GPU Architecture http://pixelsmashers[...] 2011-08-03
_[94] 문서 AMD's Graphics Core Next (GCN) Architecture http://meseec.ce.rit[...] 2016-08-13
_[95] 웹사이트 AMD Graphics Core Next http://developer.amd[...] AMD 2014-07-15
_[96] 웹사이트 AMD's Graphics Core Next Preview: AMD's New GPU, Architected For Compute http://www.anandtech[...] AnandTech 2014-07-15
_[97] 웹사이트 Managing Idle Power: Introducing ZeroCore Power http://www.anandtech[...] AnandTech 2015-04-29
_[98] 웹사이트 AMD's Kaveri A10-7850K tested http://www.anandtech[...] 2014-07-07
_[99] 웹사이트 AMD Radeon R9-290X http://www.slideshar[...] 2014-07-18
_[100] 문서 http://images.anandt[...]
_[101] 웹사이트 Add DCC Support http://lists.freedes[...] 2015-10-14
_[102] 뉴스 AMD Announces 7th Generation APU http://www.anandtech[...] Anandtech.com 2016-06-01
_[103] 웹사이트 Radeon Feature Matrix: GCA https://www.x.org/wi[...] 2021-07-16
_[104] 웹사이트 Radeon Technologies Group – January 2016 – AMD Polaris Architecture http://www.guru3d.co[...] 2021-07-16
_[105] 뉴스 The AMD Vega Architecture Teaser: Higher IPC, Tiling, & More, coming in H1'2017 http://www.anandtech[...] 2017-01-10
_[106] 웹사이트 AMD confirms Polaris 10 is Ellesmere and Polaris 11 is Baffin http://videocardz.co[...] 2016-04-08
_[107] 뉴스 The curtain comes up on AMD's Vega architecture http://techreport.co[...] 2017-01-10
_[108] 뉴스 AMD Vega GPU Architecture Preview: Redesigned Memory Architecture https://www.pcper.co[...] PC Perspective 2017-01-10
_[109] 뉴스 AMD's Ryzen 7 2700U and Ryzen 5 2500U APUs revealed https://techreport.c[...] 2017-10-27
_[110] 웹사이트 On NVIDIA's Tile-Based Rendering https://www.techpowe[...] 2021-07-16
_[111] 웹사이트 Vega Teaser: Draw Stream Binning Rasterizer http://www.anandtech[...] 2021-07-16
_[112] 웹사이트 The curtain comes up on AMD's Vega architecture http://techreport.co[...] 2021-07-16
_[113] 뉴스 Ryzen Mobile APUs are coming to a laptop near you https://techreport.c[...] Tech Report 2017-05-16
_[114] 간행물 AMD Unveils World’s First 7nm Datacenter GPUs – Powering the Next Era of Artificial Intelligence, Cloud Computing and High Performance Computing (HPC) https://www.amd.com/[...] 2018-11-10
_[115] 보도자료 AMD Launches World’s Fastest Single-GPU Graphics Card – the AMD Radeon HD 7970 http://www.amd.com/e[...] AMD 2015-01-20
_[116] 웹인용 Feature matrix of the free and open-source "Radeon" graphics device driver http://xorg.freedesk[...] 2014-07-09

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com